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Abstract 



The method includes the steps of digitised a speech signal with a pre-settable clock rate, and transferring the digitised 
speech signal at each sampling point which is determined through the clock rate, into a characteristic vector. A first 
difference of the characteristic vector to a first pattern vector is determined, in which the pattern vector presents respectively 
a smallest distinguishable sound unit with a pre-settable context degree, which indicates how far the context of a sound unit 
extends. A first minimum of the first differences is selected. A pre-settable range around the first minimum is selected, and 
the second differences of the characteristic vector to second pattern vectors are determined in this range, which present 
respectively the sound units with higher context degree than the smallest distinguishable sound unit. A second minimum of 
the second differences is selected. The characteristic vector is classified through the sound unit achievable by the second 
minimum, or, if a more exact classification is necessary, the second minimum is assumed as the first minimum, and a new 
range is considered around it. Speech is recognized from the combination of classified sound units. 
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) Verfahren zur Spracherkennung durch einen Rechner 

Das Verfahren ermogltcht aine besehleunigte Klassrfika- 
tion innerhalb einea Spracherkennungssystems. Dazu wird 
phonetisches Wtssen in Form von Dtatanzen zu Lauteinhei- 
ten benutzt urn iteratrv die Gifts der tOassiftkation zu 
verbessem. Fur einen vorgebbaren Kontextgrad wird eine 
minimate Distanz von Merkmatavektor zu vorhandenen Laut- 
einheiten berechnat und in einem nachsten Schritt innerhalb 
tnes vorgebbaren Bereichs um das gefunderte Minimum 
Abstande berechnet zu Lauteinheiten mtt hoherem Kontext- 
grad. SchlieBlieh warden die klassrfizterten Lauteinheiten zu 
Sprache zusammengesetzt. 
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Bescfarabung 



Die Erfindung betrifft ein Verfahren zur Spracherkennung durch cincn Rcchner. 

Spracherkennung beginnt bei der Erf assung eines Sprachsignals in Form einer Abtastung und DighaHsierung. 
Es folgt cine Merkmalsextraktion (V rverarbehung) und eine KlassifOcation (aucfa: Distanzberechnung) des 
vorverarbeiteten Sprachsignals. Im letzten Schritt der Spracherkennung (Suche) werden WortmodeUe zugeord- 
net, es ergibt sich eine erkannte W rtsequenz(siehe[l]). 

Die Distanzberechnung steOt den rechenintensivsten Schritt bei der Spracherkennung dar. Je nach Anwen- 
dungsf aD kann dabei der Antefl der bendtigten Rechenleistung fur die Distanzberechnung bis zu Qber 80% des 
gesamten Berechnungsaufwands des Spracherkenners betragen. 

In [2] ist ein Verfahren zur Distanzberechnung genannt, das gegenuber der Erfindung den Nachteil aufweist, 
daB statistische Cluster entsprechend statistischer Vertethmgen angeordnet sind, somh die Gute der Spracher- 
kennung direkt von der Anzahl der Cluster abhangt und der Berechnungsaufwand hoch ist 

Aus [3] sind Hidden-Markov-Modefle (HMMs) zur Laut- und WortmodeUierung bekannt. Weiterhin sind in [4] 
kontinuierfiche mehrcfimensionale, meist multivariate, VerteOungen (z. B. Laplace- oder GauB-VerteQungen) fur 
die Modellierung der Merfcmale implementiert 

Die Aufgabe der Erfindung besteht darin, ein Verfahren zur Distanzberechnung anzugeben, das eine schneBe 
KlassifOcation ernes Merkmalsvektors (nut vorgebbarer Genauigkeit) ermoglicht. 

Diese Aufgabe wird gemaB den Merkmalen des Patentanspruchs 1 gelost 

Zu diskreten Abtastzeitpunkten wird ein Sprachsignal mh einer vorgebbaren Taktrate abgetastet und digital*- 
sierL Zu jedem Abtastzeitpunkt wird das Sprachsignal in einen Merkmalsvektor mit vorgebbarer Dimension 
abgebQdet Zur Durchfuhrung der Distanzberechnung werden Abstande des jeweiligen Merkmalsvektors zu 
vorgebbaren Mustervektoren bestimmt 

Die Mustervektoren steDen unterscheidbare Lauteinheiten der Sprache dar. Jede Lauteinheh verfugt Qber 
einen KontextgradL der angibt, wie weh der Kontext der Lauteinheh reicht. 

Zunachst wird zu ersten Mustervektoren, die Lauteinheiten mit einem vorgebbaren ersten Kontextgrad 
darstellen, jeweils ein Abstand zu dem Merkmalsvektor berechnet Aus all den so berechneten ersten Abstanden 
wird ein erstes Minimum der ersten Abstande ausgewahlt. 

Urn eine genauere KlassifOcation des Merkmalsvektors vornehmen zu konnen, werden in einem iiacfasten 
Schritt zweite Mustervektoren, die Lauteinheiten mit einem zwehen Kontextgrad darstellen, wobei der zwehe 
Kontextgrad groBer als der erste Kontextgrad ist, innerhalb eines vorgebbaren Bereichs urn die durch das erste 
Minimum klassifizierte Lauteinheh zur Berechnung von zwehen Abstanden herangezogen. Ein zwehes Mini- 
mum der zwehen Abstande klassifmert eine Lauteinheit mh einem gegenuber der zu dem erst en Minimum 
gehdrenden Lauteinheit hdherem Kontextgrad. 

Reicht die Gute der durchgefuhrten KlassifOcation des Merkmalsvektors aus, so kann das Verfahren beendet 
werden, indem Sprache aus Ma ssifiz ier t en Lauteinheiten zusammengesetzt und somh erkannt wird. 

Soil eine genauere KlassifOcation erfolgen, so wird nochmals der Kontextgrad der zu untersuchenden Lautein- 
heiten erhdht, und somh in einem vorgebbaren Bereich um die zuletzt das zuletzt klassifizierte Minimum 
Abstande zu dem Merkmalsvektor berechnet. Diese Iteration kann beliebig oft wiederhoh werden, um em 
immer besseres Ergebnis zu erhalten. Allerdings genugt eine KlassifOcation mh hohem Kontextgrad nkht mehr 
der Forderung nach einer Echtzehbedingung, da die Erhohung des Kontextgrads den Aufwand fur die Berech- 
nung der KlassifOcation typischerweise exponential ansteigen laBt 

Eine WeiterbOdung des erfindungsgema&en Verfahrens besteht darin, bei Verwendung von Lauteinheiten mh 
hdherem Kontextgrad den nachsthoheren Kontextgrad auszuwahlen. 

Die Erfindung kann dahingehend wehergebOdet werden, daB zu Beginn des Verfahrens Lauteinheiten mh 
dem Kontextgrad *1 * verwendet werden. 

Weiterhin konnen als solche Lauteinheiten zu Beginn des erfindungsgemafien Verfahrens Phoneme oder 
Monophone einer Sprache verwendet werden. 

Eine andere WeherbOdung der Erfindung besteht darin, Diphone oder Triphone oder aus mehreren Phone- 
men zusammengesetzte Laute als Lauteinheiten zu verwenden. 

In den Figuren sind Ausfuhrungsbeispiele der Erfindung dargestellt, die im weheren naher eriautert werden. 

Eszeigen 

Fig. 1 ein Blockdiagramm, das Schritte des erfindungsgemlfien Verfahrens enthah, 
Fig. 2 eine Skizze, die die Erfindung im zweidimenskmalen Merkmalsraum veranschaulichl 
In Fig. 1 werden Schritte des erfindungsgemafien Verfahrens fur die Berechnung der Distanz einer Unterein- 
heh dargestellt. 

Vektoren werden nachfolgend als kleine fettgedruckte Zeichen oder mit einem Pfefl, Matrizen als grofie 
f ettgedruckte Zeichen dargestellt. 

Gesprochene Sprache wird abgetastet und in digitalisierter Form einem Rechner zuganglich gemacht In 
Schritt la, der Vorverarbehung, wird demzufolge in regelmafiigen Abstand (z. B. alle 10ms) ein Merkmalsvekt r 
x, der das aktuelle Sprachsignal reprasentiert, der Dimension D* (typische Werte fur die Dimension: 20—64) 
ermhtelt 

Wdrter werden aus Einhehen modeDiert, die eine Abfolge von Zustanden in einem Hidden-Markov-ModeB 
(siehe ausfuhriiche Beschreibung in [3]) darstellen. Solche Einhehen sind zumeist Phoneme, es konnen aber audi 
Halbsilben, SOben oder andere Einheiten verwendet werden. Eine Gesamtanzahl von Untereinheiten die die 
kleinsten sich unterscheidenden Einheiten von Sprache darstellen, schwankt je nach System und gewunschter 
AppGkation (z. B. Einzelworterkennung, kontinui riiche Sprache, Sprecherunabhangigkeit) zwischen weniger 
als 100 und mehreren 1000 Untereinheiten No. 
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Bei der Distanzberechnung (siehe Fig. 1, Schritte lb bis If) geht es darum, fur alle Untereinhehen N Q 
akustische Distanzen gemaB einer verwendeten modellierenden VerteOung zu berechnen. Fur jed Untereinheit 
u werden Nv(u) Verteilungen zur ModeHierung benutzt, wobei sich Nv(u) fur jede Untereinheit u unterscfaeiden 
kann. Typische Werte fur Ny(u) li gen zwischen 1 und 10a Bei Verwendung von GauB-Verteilungen werden 
diese dargestelh als 



31 « G{ix j# Cj) 



(1) 



wobei fij der Dr-dimensionale Mhtelpunktsvektor und C die Dr-dimensionale Kovarianzmatrix der mit j indi- 
zierten GauB- VerteOung g} bezeichnen. 

Die GesamtverteOung fur eine Untereinheit u (Summe der GauB- Verteilungen) wind dargestelh durch go- Es 
handelt sich dabei urn die mh cj gewichtete Summe der einzelnen Verteflungen: 



3a = 



Nj(u) 

3=1 



3j 



(2) 



N v (u) 
PuW = k x % 

j=1 n^i 



I 2 °t,i J 



(3), 



i=l 



wobei k eine vorgebbare unplementieningsabhSngige Konstante ist. 

Eine verwendete Naherang geht davos aus, daB die Wahrscheinlichkeit einer Untereinheit u von der Wahr- 
scheinlichkeit der "besten" ( = wahrscheinlichsten) Verteilung dominiert wird. Dies bedeutet, daB ia- Gleichung 
(3) die auBere Summe durch einen max-Operator ersetzt werden kann. Es ist aber immer noch die Berechnung 
der Wahrscheinlichkeit en alter Verteilungen notwendig, denn erst dann kann der max-Operator ausgewertet 
werden: 
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Es ist ublkh, von diagonal en Kovarianzmatrizen der GauBverteOungen auszugehen. oy bezeichnet dann die 
i-te Komponente der Varianz der Verteflung j. Die Wahrscheinlichkeit dafur, daB eine bestimmte Untereinheit u 
aufgetreten ist, wenn der beobachtete Merkmalsvektor x voriiegt, berechnet sich zu: 25 



40 



V(j e {l, _ , N v (u)}) 



(4) . 



Um die Berechnung des komplexen Terms in Gleichung (4) zu umgehen, wird Gleichung (4) logarithmiert, man 
spricht dann von Distanzen ansteUe von Wahrscheinlichkehen und bezeichnet diese Distanzen mit db(x). Nacfa 
Umfonnen ergibt sich folgende Gleichung zur Berechnung der Distanz der akustischen Untereinheit u bei 
Vorliegen des betrachteten Merkmalsvektors x: 
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d u (x) — min 



V(j e {l....,*^)}) 



j{ K l, j + *2,j x - n j#i ) 2 J 



(5), 



10 



wobei Kij und Kaj von der Realisierung abhangige vorgebbare Konstanten darstellen, die einmal im Voraus 
berechnet werden konnea 

Ahnliche Beredmungsschemata ergeben sich aucb bei Verwendung anderer Verteflungen, z. B. der Laplace- 
Verteilung, imd schranken das erfindungsgemaBe Verfahren nicht auf die ausgefuhrte Verteflungsvariante em. 
15 deichung (5) wird fur alle Untereinheiten u ausgewertet Die Gesamtzahl aller VerteOungen im System fur 
alle Untereinheiten u sei N T und berechnet sich zu 



20 



N v = S N v(k) (6) 



Das bedeutet, daB alle 10ms (aHe 10ms wird ein Merkmahvektor ersteDt) Nv-mal ein Dr-dimensionaler 
25 Abstand berechnet wird, wobei N T bei Systemen typischerweise im Bereich 1000—500 000 Kegt Diese Berech- 
nung kann heutzutage von einem handelsQblichen Rechner (PC, Workstation, Signalprozessor) nicht unter 
Einhaitung der Echtzehbedingung durchgefuhrt werden. 

Das erfindungsgemaBe Verfahren zeichnet sich dadurch aus, dafi phonetisches Wissen zur Bestimmung einer 
Untermenge von Reprasentanten herangezogen wird. Es findet ein direktes Clustering von Untereinheiten statt. 
30 Die Erfindung verwendet als ein primares Kriterium zur Ermitdung einer geeigneten Untermenge zu berecb- 
nender Distanzen das Wissen urn den phonetischen Kontext der modeliierten (Sprach-)Segmente bzw. Unterem- 
hetten. 

Zur Erlauterung des erfmdungsgemaBen Verfahrens wird von der Verwendung von Phonemen als Basis-Laut- 
einheiten fur die Spracherkennung ausgegangen Das Verfahren ist jedoch auf fur andere Lauteinheiten als 
35 Phoneme realisierbar. 

Ein typisches Spracherkennungssystem enthah ca. 40—60 Basis-Lauteinhehen. Bei sokhen Basis-Lauteinhei- 
ten handelt es sich urn kontextunabhangige Lauteinheiten. Urn Sprache genauer kla ssifizieren zu konnea 
werden Basis-Lauteinheiten in Abhangigkett der vorangehenden und nachfolgenden Basis-Lauteinheiten gebil- 
det. 

40 Heutzutage werden Diphone, d h. zwei Phoneme bestimmen die Untereinheit (ein Nachbarphonem wird zur 
Kontextbildung herangezogen^ Triphone, d. h. drei Phoneme bestimmen die Untereinheit und Quinphone, d h. 
funf Phoneme bestimmen die Untereinheit, verwendet 
Kontext-abhangige Lauteinheiten werden wte folgt notiert: 

45 l40-l....,i-lM+U-.i+r) (7) 

wobei i einen Zentrallaut markiert, bei dem 1 Laute im vorangehenden (-Iinken) Kontext und r Laute im 
nachfolgenden ( - rechten) Kontext zur Bestimmung der Untereinheit beruckskhtjgt werden. Es lieet d»mn«4i 
ein(l+r+l)-Lautvor. 

50 Durch diese hier beschriebene Modellierung kann sich die Anzahl der Lauteinheiten mit hoherem Kontext- 
grad, m Abhangigkeit der jeweOigen Anwendung auf mehrere 1000 erhohen, da die Anzahl der verschiedenen 
theoretisch moglichen Lauteinheiten mh der Potenz der berucksichtigten Kontextlange wachsL 

Neben den kontext-abhangigen Lauteinheiten werden zusatziich kontext-unabhangige Lauteinheiten (- 
Basis-Lauteinheiten) implementiert Diese Basis-Lauteinheiten dienen bei Tastlook-aheacT-Methoden zur 

55 schnellen Vorauswahl von Hypothesen in der Sucfae nach einer Kiassiflkation eines Merkmalsvektors oder 
werden zur Modellierung von Wortern herangezogen, wenn wahrend einer Trainingsphase des Spracherken- 
nungssystems zu wenige Ergebnisse vorlagen, urn modeDLierende VerteOungen nach Gleichung (2) fur die 
detaillierten Untereinheiten (imweheren Kontext) zu bestimmen. 
Fur alle Lauteinheiten (Untereinheiten u) wird ein Kontextgrad Gk bestimmt, der angibt, wie weh der 

eo Kontext der jeweiligen Lauteinheit reicht Fur Basis-Lauteinheiten (kontextunabhangige Untereinheiten) gilt 
Gk=» 1, fur Diphone gilt Gie-2, fur Triphone gilt Gk=3, usw. Fur kontextabhangige Lauteinheiten gih gemaB 
deichung (7) fur den Kontextgrad 



GK-l+r+1 (8). 



65 



In der Erfindung wird zur Entscheidung, ob die Distanz einer Lauteinheit genauer (in einem hdheren Detaiffie- 
rungsgrad) berechnet werden soil die Distanz der gleichen Lauteinheit im kleineren Kontextgrad ( - abstrakte- 
ren Kontext) herangezogen. Das bedeutet, dafi zur Entscheidung, ob die Distanz fur die Lauteinheit 
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Lfi-l,...,i-l|,i+l,...i+r) 

explizh berechnet wird, die Distanz fQr einen abstrakteren Laut 

herangezogen wird, wobei gilt h<l r*<r. Der Vorteil Iiegt darin, daB fur afle L< . . • X denen h<l T2<t gilt, 
die Distanz der gletchen abstrakten Untereinheh Labs zur Entscheidung verwendet werden kann. Demzuf lge 
wird bei der WaW der abstrakten Lauteinheit bis auf die Basis-Lauteinhehen zuruckgegriff n, fur die gQt 1— r— 0. 

Sodann wird die optimale Distanz dopt aus alien Distanzen der abstrakten Lauteinheiten berechnet (siehe io 
Fig. l,Schritt 1c): 



dopt - *^j{dabs,i} V(i e {l, . . . , N u#abs }) (9) , 



15 



wobei Nt^abs eine Anzahl der abstrakten Lauteinheiten bezeichnet und N«bs die Anzahl der Verteflungen, die die 
Nujbs abstrakten Lauteinheiten modelliert, bezeichnet 

Im Schritt le werden fur Lauteinheiten mh hdherem Kontextgrad die Distanzen explizh berechnet, wobei die 
Bedingung 20 

dojrts < dope + thr (10) 

vorschreibt, daB innerhalb eines vorgebbaren Bereichs (gekennzeichnet durch den vorgebbaren Wert thr) am 
das nach Gleichung (9) errechnet Minimum dopt abstrakte Lauteinheiten d—w. zu einer detaillierteren Klassifi- 25 
zienmg des Merkmalsvektors herangezogen werden (Schritt Id). 

Fur den vorgebbaren Wert thr kann gehen: thr = const, (Lh.es wird one Konstante durch Vorberechnung 
bestimmt, oder der Wert thr wird implizit abhangig von dem augenblicklichen Merkmalsvektor x ausgewahh 
gemaB 

thr=K<brxdopt (11X 30 

wobei Kchr ein vorgebbarer Wert ist 

Fur alle Lauteinheiten, deren Distanz der abstrakten Lauteinheit nach Gleichung (11) nicht innerhalb des 
durch den Wert thr vorgebbaren Bereichs liegt, d h. deren Distanz zu grofi ist. wird gesetzt: 35 

<KU}-1 i-l|>i+l... .i+r))-d(Ub.) (12). 

Somh wird die Distanz der abstrakten Untereinheit gewahlt, wodurch die explizite Berechnung der Distanz 
eingespartwird 40 

Die Anzahl der explizh zu berechnenden Verteflungen wird mit N t bezeichnet wobei N t ^Nv gflL Werden 
nun abstrakte Lauteinheiten zur Entscheidungsfindung nach Gleichung (10) ausgewahh, die gieicfazehig Tefl des 
Spracherkennungssystems sind, wie bspw. die Basis- Lauteinheiten, and die Verteflungen der abstrakten Lautein- 
heiten Nabs eine Teflmenge der modeUierenden Verteflungen 



45 



Nabs c N V (13) 



Somit gilt: 5q 

Ng« « N.bs + N t < Nv (14). 

Auf diese Weise ist immer sichergestelk, daB nie mehr Verteilungen berechnet werden mussen, als das 
eigentliche System beinhaltet, da die zur Entscheidung herangezogenen Lauteinheiten bzw. Verteflungen Teil 55 
des Systems sind 

GemaB obiger Beschreibung wird also innerhalb des durch den Wert thr vorgegebenen Bereichs wiederum 
in Minimum der Abstande dopt ermittelt (Schritt If) und, wenn die Gute der Klassifikation ausreicht (Schritt Id), 
das Verfahren beendet, indem Lauteinheiten zusammengesetzt werden (Schritt Ig) und somit Sprache erkannt 
wird Ist hingegen die Gute der Klassifikation nodi nicht ausreichend so wird zu Schritt le gespnmgen und das go 
Verfahren iteriert 

In Fig. 2 wird beispielhaft die Klassifikation im zweidimensionalen Merkmalsraum (xl, x2) veranschaulicht In 
Fig. 2a sind ein Merkmalsvekt r MV, und drei Lauteinheiten LEI, LE2 und LE3 mit d mselben Kontextgrad 
dargestellt Zu jeder Lauteinheit LEI, LE2 und LE3 wird jeweils eine Distanz dl, d2 und d3 berechnet Das 
Minimum aus den Distanzen, hier der Abstand dl, wird gemaB Gleichung (9) ausgewahh. 65 

In Fig. 2b wird urn das ausgewahlte Minimum ein vorgebbarer Bereich gemaB Gleichung (10) gekennzeichnet 
durch dl + thr, bestimmt. Im B ispiel Iiegen auBer der Lauteinheit LEI noch weitere Lauteinh hen LE1-1, LEI -2, 
LE1-3 und LEI -4 mh gegenuber Lauteinheit LEI hdherem Kontextgrad innerhalb dieses vorgebbaren Bereichs. 
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Fur jede dieser Lauteinheiten LEl-l 9 LEI -2, LEI -3 und LE1-4 wird jeweOs die Distanz berecfanet Aus den 
resultierenden Distanzen dl-1, dl-2, dl-3 und dl-4 wird das Minimum berecfanet (wieder nach Gleichung (9))l 
Das Verf ahren kann fortgesetzt iteriert werden, indem um das ausgewahlte Minimum dl-4 wieder ein v rgebba- 
rer Bereich bestimmt wird und innerfaalb dieses Bereicfas Distanzen zu Lauteinheiten mit hdherem Kontextgrad 
als die Lauteinheh LEI -4 berechnet werden. 
Literatur: 

[1] G. Ruske: Automatische Spracherkennung: Methoden der Klassifikati n und Merkmalsextraktion. Olden- 
bourg, Munchen 1988, ISBN 3-486-20877-2, S.l-10. 

[2] Enrico Bocchieri: Vector Quantizati n for the Efficient Computati n f Continu us Density likelihoods, 
Proc IEEE Internationa] Conference of Acoustics, Speech and Signal Processing (ICASSP), S. 11-692 bis 11-695. 

[3] L R. Rabinen A Tutorial on Hidden Markov Models ans Selected Applications in Speech Recognition, 
Proc IEEE, Feb. 1989, S. 257-286. 

[4] L R. Rabiner, B.-K Juang, & E. Levinson, M. M. Sondhi: Recognition of Isolated Digits Using Hidden 
Markov Models with Continuous Mixture Densities, AT&T Technical Journal VoL64, Na6, Judy-August 1985, S. 
1211-1234. 

Patentanspruche 

1. Verfahren zur Spracherkennung durch einen Rechner, 

a) bei dem ein Sprachsignal mit einer vorgebbaren Taktrate dighalisiert wird, 

b) bei dem das dighalisierte Sprachsignal zu je einem Abtastzehpunkt, der durch die Taktrate festge- 
legt ist, in einen Merkmalsvektor abgebildet wird, 

c) bei dem erste Abstande des M erkmalsvelctors zu ersten M ustervektoren ermitteh werden, wobei die 
Mustervektoren jeweils one kleinste unterscheidbare Lauteinheit mh einem vorgebbaren Kontext- 
grad, der angjbt, wie weit der Kontext einer Lauteinheit reicht, darstellen, 

d) bei dem ein erstes Minimum der ersten Abstande ausgewdhlt wird, 

e) bei dem um das erste Minimum ein vorgebbarer Bereich ausgewahh wird und in diesem Bereich 
zwehe Abstande des Merkmalsvektors von zwehen Mustervektoren, die jeweils Lauteinheiten mh 
gegenuber den kleinsten unterscheidbaren Lauteinheiten hdherem Kontextgrad darsteDen, bestimmt 
werden, 

f) bei dem ein zwehes Minimum der zwehen Abstande ausgewahh wird, 

g) bei dem der Merkmalsvektor durch die uber das zwdte Minimum erretchbare Lauteinheit klassffi- 
ziert wird oder, falls eine genauere KlassifDcation erforderiich ist, das zwehe Minimum als das erste 
Minimum angenommen und mit Schritt e) fortgefahren wird, 

h) bei dem aus zusammengesetzten klassifizierten Lauteinheiten Sprache erkannt wird. 

2. Verfahren nach Anspruch 1, bei dem im Schritt e) fur die zwehen Mustervektoren der nachsthdhere 
Kontextgrad gegenuber den ersten Mustervektoren ausgewahh wird. 

3. Verfahren nach Anspruch 1 oder 2, bei dem die ersten Mustervektoren kontextunabhangige Einhehen mit 
dem Kontextgrad 1 darstellen. 

4. Verfahren nach einem der Anspruche 1 bis 3, bei dem als Mustervektoren Phoneme einer Sprache 
verwendet werden. 

5. Verfahren nach einem der Anspruche 1 bis 3, bei dem als Mustervektoren Triphone einer Sprache 
verwendet werden. 

& Verfahren nach einem der Anspruche 1 bis 3, bei dem als Mustervektoren Quinphone einer Sprache 
verwendet werden. 
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